Efficiently Supporting Multiple Similarity Queries for Mining in Metric Databases

نویسندگان

Bernhard Braunmüller

Martin Ester

Hans-Peter Kriegel

Jörg Sander

چکیده

Metric databases are databases where a metric distance function is defined for pairs of database objects. In such databases, similarity queries in the form of range queries or k-nearest neighbor queries are the most important queries. In traditional query processing, single queries are issued independently by different users. In many data mining applications, however, the database is typically explored by iteratively asking similarity queries for answers of previous similarity queries. In this paper, we introduce a generic scheme for such data mining algorithms and we develop a method to transform such algorithms in a way that they can use multiple similarity queries, i.e. sets of queries issued simultaneously. We investigate two orthogonal approaches, reducing I/O cost as well as CPU cost, to speed-up the processing of multiple similarity queries. The proposed techniques apply to any type of similarity query and to an implementation based on an index or using a sequential scan. Parallelization yields an additional impressive speed-up. An extensive performance evaluation confirms the efficiency of our approach and we conclude that multiple similarity queries should be provided as a basic DBMS operation in order to support many data mining applications in metric databases.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Multiple Similarity Queries: A Basic DBMS Operation for Mining in Metric Databases

متن کامل

Solving Multiple Queries through a Permutation Index in GPU

Query-by-content by means of similarity search is a fundamental operation for applications that deal with multimedia data. For this kind of query it is meaningless to look for elements exactly equal to the one given as query. Instead, we need to measure dissimilarity between the query object and each database object. The metric space model is a paradigm that allows modeling all similarity searc...

متن کامل

The Pruning Power: Theory and Heuristics for Mining Databases with Multiple k-Nearest-Neighbor Queries

Numerous data mining algorithms rely heavily on similarity queries. Although many or even all of the performed queries do not depend on each other, the algorithms process them in a sequential way. Recently, a novel technique for efficiently processing multiple similarity queries issued simultaneously has been introduced. It was shown that multiple similarity queries substantially speed-up query...

متن کامل

RankSQL: Supporting Ranking Queries in Relational Database Management Systems

Ranking queries (or top-k queries) are dominant in many emerging applications, e.g., similarity queries in multimedia databases, searching Web databases, middleware, and data mining. The increasing importance of top-k queries warrants an efficient support of ranking in the relational database management system (RDBMS) and has recently gained the attention of the research community. Top-k querie...

متن کامل

Query Optimization on Relational Databases for Supporting Top-k Query Processing Techniques

Information systems apply various techniques to rank query answers. Ranking queries (or top-k queries) are dominant in many emerging applications, e.g., similarity queries in multimedia databases, searching web databases, midlewares and data mining. In such application domains, end-users are more interested in the most important (top-k) query answers in the potentially huge answer space. Thus f...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2000

Efficiently Supporting Multiple Similarity Queries for Mining in Metric Databases

نویسندگان

چکیده

منابع مشابه

Multiple Similarity Queries: A Basic DBMS Operation for Mining in Metric Databases

Solving Multiple Queries through a Permutation Index in GPU

The Pruning Power: Theory and Heuristics for Mining Databases with Multiple k-Nearest-Neighbor Queries

RankSQL: Supporting Ranking Queries in Relational Database Management Systems

Query Optimization on Relational Databases for Supporting Top-k Query Processing Techniques

عنوان ژورنال:

اشتراک گذاری